arxiv：2412.14135v1 [cs.ai] 2024年12月18日__

arxiv：2412.14135v1 [cs.ai] 2024年12月18日

可下载资源数量

已经购买

下载数量：1

单价	0 5.0
Coupon	100% 0%
Total	0 5.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2412.14135v1 [cs.ai] 2024年12月18日

¥ 5.0

热度

OpenAI O1代表了人工整体的重要里程碑，该里程碑在需要强大的推理能力的许多挑战任务上实现了专家级别的表现。Openai声称O1背后的主要techinique是秘密学习（Openai，2024a; b）。最近的作品使用诸如知识蒸馏之类的替代方法来模仿O1的推理风格，但是它们的有效性受到教师模型的能力上限的限制。因此，本文从强化学习的角度来解析了实现O1的路线图，重点关注四个关键组成部分：政策初始化，奖励设计，搜索和学习。策略初始化使模型能够开发类似人类的推理行为，使他们能够有效地探索解决方案空间的复杂问题。奖励设计通过奖励成型或奖励建模提供密集有效的信号，这是搜索和学习的指导。搜索在训练和测试阶段生成高质量的解决方案中起着至关重要的作用，这可以通过更多的计算产生更好的解决方案。学习利用通过搜索改进策略生成的数据，可以通过更多的参数和更多的搜索数据来实现更好的性能。现有试图重现O1的开源项目似乎是我们路线图的一部分或变体。共同强调了学习和搜索如何推动O1的进步，从而为LLM的开发做出了有意义的贡献。

添加pdf代下载 VIP点击下载文件